Le Dilemme multi-fournisseur représente une fragmentation stratégique et technique dans le calcul haute performance (HPC). Pendant plus d'une décennie, une monoculture logicielle existait ; cependant, l'essor des équipements exascale concurrents comme Frontier et El Capitan (AMD), ainsi que les déploiements traditionnels de NVIDIA, a forcé un « fork de développement ».
1. Hétérogénéité matérielle et silos
Les développeurs font face à un effet de « silo fournisseur » où le code est physiquement et logiquement incompatible entre les architectures. Choisir une API propriétaire entraîne Verrouillage fournisseur, nécessitant un doublement des efforts de maintenance pour soutenir des clusters hétérogènes.
2. Fragmentation de l'écosystème
Les systèmes sont définis par des variables d'environnement mutuellement exclusives. Cela crée des conflits dans les systèmes de construction :
CUDA_PATH: Répertoire racine de l'outil NVIDIA.HSA_PATH: Chemin de l'architecture système hétérogène pour ROCm d'AMD.
3. La dette de maintenance
La migration des bases de code héritées nécessitait traditionnellement une réécriture complète des noyaux et de la gestion de la mémoire. Sans couche portable, les bases de code secondaires souffrent de dégradation logicielle (bit rot) alors que l'innovation stagne, les ingénieurs s'efforcent de gérer la compilation conditionnelle.